行动识别旨在理解人类行为并预测每个行动的标签。最近,Vision Transformer(VIT)在动作识别方面取得了出色的性能,该识别对视频中的空间和时间索引上的长序列进行了建模。完全连接的自我发言层是香草变压器的基本密钥。但是,视觉变压器模型的冗余体系结构忽略了视频框架贴片的局部性,这涉及非信息令牌,并可能导致计算复杂性的提高。为了解决此问题,我们提出了一个基于注意的视频视觉变压器(𝑘 -Vivit)网络以进行动作识别。我们对视频视觉变压器(Vivit)而不是原始的自我注意力采用𝑘 -NN的注意,这可以优化训练过程并忽略输入序列中无关或嘈杂的令牌。我们在UCF101和HMDB51数据集上进行实验,以验证我们的模型的有效性。实验结果表明,与这些动作识别数据集中的几个最新模型相比,所提出的Vivit具有优越的精度。
主要关键词
![[公式省略] -nn基于注意的视频视觉变压器用于动作识别PDF文件第1页](/bimg/5/57f6fa3079ee8122cef6145104a6a9fb50fcf798.webp)
![[公式省略] -nn基于注意的视频视觉变压器用于动作识别PDF文件第2页](/bimg/6/6b03c9f9450f5ac84fa0daeccc002a9ce31eb820.webp)
![[公式省略] -nn基于注意的视频视觉变压器用于动作识别PDF文件第3页](/bimg/4/4f7af532c9f1cfba957e46a3a0901932ac6a1944.webp)
![[公式省略] -nn基于注意的视频视觉变压器用于动作识别PDF文件第4页](/bimg/6/68cee0cfccf4efccb6965edd1d06cc07dc2821f8.webp)
![[公式省略] -nn基于注意的视频视觉变压器用于动作识别PDF文件第5页](/bimg/d/d683d77bd7ef08e45f2608aa0e34872cc44557e9.webp)
